首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云原生团队

    在 TKE 上使用 NVIDIA Dynamo 部署 PD 分离模型

    目前 Dynamo 在 github 上开源[1],它被设计用于在多节点分布式环境中为生成式人工智能和推理模型提供服务,支持多种推理引擎:包括 TRT-LLM、vLLM、SGLang 等等。 动态 GPU 调度:根据波动需求优化性能。 LLM 感知请求路由:消除不必要的 KV 缓存重新计算。 加速数据传输:利用 NIXL 缩短推理响应时间。 本文主要基于 dynamo 的分解预填充和解码推理阶段特性讲述如何在 TKE 上使用 dynamo 部署 PD 分离模型,分为以下六部分: 第一部分,介绍 Dynamo 的 PD 分离架构。 PD 分离(Prefill-Decode Disaggregation)是一种针对语言模型LLM)推理过程的优化技术,其核心思想是将推理任务拆分为预填充(Prefill)和解码(Decode)两个独立阶段 本篇文章主要围绕着 dynamo ,介绍了如何在 TKE 上部署 PD 分离模型,以及简单的性能验证过程,希望能抛砖引玉,给大家带来一些启发,如有谬误,欢迎指正,一起交流。

    3.5K10编辑于 2025-04-21
  • 来自专栏AI前沿技术

    模型推理-基于prefill和decode阶段特性,PD分离,势在必行!

    分离 3.2 PD共置的问题 • 单条请求的局限 模型推理先经过Prefill生成KV cache和首字后,传给Decode阶段,进行自回归解码生成新token。 PD 分离式架构: • 模型的预填充阶段,部署在 Prefill Instance 节点上,专注于 Prefill 阶段的计算,得到KV 缓存。 PD分离架构的优势是,两个阶段部署在不同服务器,可以各自优化,进而使得总的吞吐和计算设备利用率最大化。 PD分离架构一个核心点是,KV cache 的计算和传递,其影响着整个架构的调度设计。 Mooncake 进一步发展了PD分离架构,提出了一种以键值缓存(KVCache)为中心的分离LLM 服务架构。 最后介绍PD分离方案的技术路线。

    1.3K10编辑于 2026-01-13
  • 来自专栏产品笔记

    语言模型(LLM)

    最近,作为代表性的语言模型应用ChatGPT展现出了超强的人机对话能力和任务求解能力,对于整个AI研究社区带来了重大影响。01 — 什么是语言模型? 深度学习是机器学习的分支,语言模型是深度学习的分支。 机器学习是人工智能(AI)的一个子领域,它的核心是让计算机系统能够通过对数据的学习来提高性能。 (2)问答:大型语言模型可以回答用户提出的自然语言问题。例如,可以使用大型语言模型来回答搜索引擎中的用户查询,或者回答智能助手中的用户问题。 03 — 语言模型的特征 大型通用语言模型可以进行预训练,然后针对特定目标进行微调。 Large():在"语言模型"的上下文中,""主要有两层含义。一方面,它指的是模型的参数数量。 在这些模型中,参数的数量通常会非常,达到数十亿甚至数百亿。这使得模型能够学习和表示非常复杂的模式。另一方面,""也指的是训练数据的规模。

    1.8K50编辑于 2023-09-09
  • 来自专栏机器学习

    介绍语言模型LLM

    介绍语言模型LLM)近年来,人工智能(AI)和自然语言处理(NLP)领域取得了显著的进展,其中大语言模型(Large Language Models,简称LLM)成为了引人注目的焦点。 自Transformer架构提出以来,多个大规模语言模型相继问世,如:GPT(生成预训练变换器)系列:由OpenAI推出的GPT系列模型是最具代表性的LLM之一。 机器翻译:语言模型在机器翻译方面表现出色,可以实现多语言间的自动翻译,提高翻译的准确性和流畅度。对话系统:语言模型可以用于构建智能对话系统,如聊天机器人和虚拟助理,提供自然流畅的对话体验。 问答系统:通过理解和处理自然语言提问,语言模型可以提供准确的答案,应用于搜索引擎和智能客服等领域。文本摘要:语言模型可以自动生成文章的摘要,帮助用户快速获取关键信息。 通过不断的技术创新和优化,我们有理由相信语言模型将在未来发挥更大的作用,推动AI技术的发展,提升人类生活的智能化水平。

    1.3K00编辑于 2024-07-30
  • 来自专栏机器学习入门

    【AI模型LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna BLOOM模型 BLOOM系列模型是由 Hugging Face公司的BigScience 团队训练的语言模型。 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
  • 来自专栏Se7en的架构笔记

    PD 分离推理架构详解

    PD 分离推理架构的讲解视频可以在这里观看:https://www.bilibili.com/video/BV1ZTWAzmEEc 本文是 LLM 推理系列的第 6 篇,介绍 PD 分离推理架构 在语言模型推理过程中 分离工业界项目 7.1 Mooncake Mooncake 是 Moonshot AI 提供的领先模型服务 Kimi 的推理平台。 llm-d 提供以下核心功能: 基于 vLLM 优化的推理调度器:llm-d 基于 IGW 的 Endpoint Picker Protocol (EPP) 实现可定制化的“智能”负载均衡,专门针对 vLLM for LLM Serving 10 总结 PD 分离模型推理中的一种架构优化策略,核心思想是把 prefill 阶段和 decode 阶段分开,由不同的 GPU 或实例分别承担。 /rossiXYZ/p/18815541 模型推理分离架构五虎上将:https://zhuanlan.zhihu.com/p/706218732 LLM关于PD分离的最新实测:https://zhuanlan.zhihu.com

    2.9K20编辑于 2025-11-12
  • 来自专栏xiaosen

    LLM-AI模型介绍

    语言模型 (LLM) 背景 语言模型 (Large Language Model) 是一种人工智能模型, 它们通常包含数千亿甚至更多的参数,并在大规模数据集上进行训练。 语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。 自然语言模型的发展经历了从概率模型到神经网络模型,再到大型语言模型的过程。 这些能力的涌现使得LLM在多项任务中取得了显著的效果提升。 LLM的训练过程通常包括预训练和微调两个阶段。 模型走向对话式、生成式、多模态时代,更加注重与人类交互进行对齐,实现可靠、安全、无毒的模型语言模型:大规模语言模型(Large Language Model, LLM)通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

    65310编辑于 2024-04-20
  • 什么是语言模型LLM

    语言模型(LargeLanguageModel,简称LLM)是一种旨在理解和生成人类语言的人工智能模型。 1.定义与基本原理语言模型是一种基于深度学习的自然语言处理模型。其“”主要体现在两个方面:参数规模模型包含数十亿至数千亿的可调节参数,用以学习语言数据中的细微模式和复杂关系。 3.流行原因语言模型之所以成为人工智能领域的焦点,主要源于其以下几个突出优势:关键原因具体说明卓越的性能庞大的参数量使其能捕捉极其复杂的语言模式,在多种自然语言处理任务(如生成、翻译)的准确性和流畅度上超越了许多之前的专用模型 自然的交互性模型能够生成类人的、符合上下文的文本响应,这使得人机交互变得更加自然和直观,为智能客服、个人助手等应用开辟了新可能。 5.面临的挑战与局限尽管能力强大,语言模型的发展仍面临若干显著挑战:巨大的资源消耗:训练顶级LLM需要庞大的计算集群和巨额电力,导致极高的经济成本和环境足迹,这使得其研发主要集中于少数大型科技机构。

    78110编辑于 2026-03-03
  • 来自专栏喔家ArchiSelf

    解读模型LLM)的token

    但是,词汇表越大,模型所需的内存和计算资源就越多。因此,词汇表的选择取决于模型的质量和效率之间的权衡。 基于用于与模型交互的token数量以及不同模型的不同速率,模型的使用成本可能大不相同。 因此,tokenization是影响运行模型的成本和性能的一个重要因素。 LLM应用中token 的使用 我们需要知道当前任务的token 使用状况,然后,面对模型的token长度限制,可以尝试一些解决方案 5.1 token 的使用状态 这里采用OpenAI 的API , 如何构建基于模型的App Qcon2023: 模型时代的技术人成长(简) 论文学习笔记:增强学习应用于OS调度 《深入浅出Embedding》随笔 LLM的工程实践思考 解读模型的微调 解读ChatGPT 中的RLHF 解读Toolformer 解读TaskMatrix.AI 解读LangChain 浅析多模态机器学习 Agent 与对象的辨析 深度学习架构的对比分析 老码农眼中的模型LLM) 系统学习模型

    20.6K51编辑于 2023-10-08
  • 来自专栏产品笔记

    语言模型LLM)LangChain介绍

    LangChain是一个利用语言模型的能力开发各种下游应用的开源框架,它的核心理念是为各种语言模型应用实现通用的接口,简化语言模型应用的开发难度,主要的模块示意图为: Index:提供了各类文档导入 通过 Index 模块,非常容易处理各类型的外部数据,来提供给模型进行推理。 Prompts:将用户输入和其他外部数据转化为适合语言模型的提示词,包括提示词管理、提示词优化和提示词序列化等功能。 ,通过提示词不断探索语言模型的能力边界,LangChain 提供了一个易用的提示词管理工具。 Models:提供了对各类语言模型的管理和集成,除闭源的语言模型 API 接口外,还提供对多个开源模型仓库中开源语言模型的集成接口,以及在云上部署的语言模型接口。 Agents 通过 SQL chain 查询账号余额,通过调用网页查询接口的 LLM 查找实时黄金价格,通过调用 LLM Math 计算能买到的黄金数量完成最终的任务,这一系列的逻辑操作均可以在 Agents

    1.2K30编辑于 2023-09-09
  • 基于 MemOS 模型长记忆系统的架构实践与场景落地

    关键技术突破:PD 分离与记忆体系的深度耦合 在商汤科技装置团队的合作实践中,MemOS 创新性地将 “PD 分离(Prefill 与 Decode 分离)” 技术与记忆体系深度耦合,重构 “记忆 — 计算 — 调度” 一体化架构,突破传统推理性能天花板,该技术方案由商汤科技装置事业群研发总监王磊在发布会上重点解读,核心原理如下: 技术逻辑:传统 PD 分离仅依赖硬件隔离,性能提升存在天然上限;MemOS 技术价值与架构复用性 MemOS 模型长记忆系统的架构实践,为架构师提供三可复用价值: 技术层面:长记忆算法模块(如 MemScheduler 调度逻辑、PD 分离协同方案)可独立集成至现有模型应用架构 成本层面:基于弹性部署方案,结合 PD 分离与记忆优化技术,可降低模型长记忆应用的算力成本 30%-45%;冷数据分层存储进一步减少存储开销,企业级客户平均回本周期缩短至 8 个月。 总结与展望 MemOS 通过 “记忆即计算资源” 的创新理念、三层架构设计,以及与 PD 分离技术的深度耦合,解决了模型长记忆落地的核心技术与成本问题,目前已在金融、虚拟陪伴、游戏开发等领域实现规模化落地

    1.5K20编辑于 2026-01-07
  • 来自专栏素质云笔记

    模型幻觉(LLM Hallucination)若干记录

    主要参考:模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 Reference-Free 基于IE:将知识限定于可以用三元组形式表示的关系和事件,基于额外的IE模型进行抽取,接着使用额外模型进行验证。 人工评估:目前为止最靠谱的,此外还可以依靠LLM打分(比如利用GPT4,但是GPT4也存在着严重的幻觉问题,即使经过retrival-augment,检索回来的信息也有可能是错误的) 3 如何解决 构建高质量数据集 后处理:设计一个小模型专门用于fix幻觉错误。 Augment Generation(Retrieval Augment Generation - 让幻觉不再继续(一)): Retrieval Augment Generation有两个重要的组成部分,预训练模型和领域知识库

    1.3K40编辑于 2023-07-25
  • 来自专栏一乐来了

    使用模型LLM实现销售AI

    销售AI首先使用LLM解析客户的问题,然后通过智能代理查询数据库获取产品详细信息,并以自然而友好的方式回应客户。 那么在AI2.0时代,大型语言模型LLM的时代,这个问题怎么样了呢? 销售AI的核心挑战 客服到销售角色的转变 将客服职能转变为销售功能一直是个大挑战。 典型的智能应用(ChatAI)架构方案 一个典型的智能应用架构,是以模型LLM驱动,聊天为入口,使用Agent智能插件能力驱动API服务: 智能应用(ChatAI)架构 以模型LLM为核心 大型语言模型 用户可以通过聊天界面发送消息,AI则在后端通过LLM和API服务处理这些消息,并实时提供回复。 我们在快速构建你的智能应用里就已经探讨过未来智能应用的形态,现在这个观点依然没有改变。 我们会持续分享关于智能聊天ChatAI、模型技术进展、AI Agent设计等方面的内容,

    58710编辑于 2025-05-23
  • 来自专栏数字孪生元宇宙

    MLC LLM - 手机上的模型

    MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上,此外还提供了一个高效的框架,供每个人根据自己的用例进一步优化模型性能。 图片1、什么是 MLC LLM?近年来,生成式人工智能 (AI) 和大型语言模型 (LLM) 取得了显着进步,并变得越来越普遍。 由于开源计划,现在可以使用开源模型开发个人AI助手。 但是,LLM 往往是资源密集型和计算要求高的。 要创建可扩展的服务,开发人员可能需要依赖强大的集群和昂贵的硬件来运行模型推理。 此外,部署 LLM 还面临一些挑战,例如不断发展的模型创新、内存限制以及对潜在优化技术的需求。 ----原文链接:MLC LLM - 手机模型 - BimAnt

    1.4K30编辑于 2023-05-07
  • 来自专栏人工智能

    (LLM系列)什么是语言模型

    (LLM系列)什么是语言模型?人工智能正在改变我们与技术互动的方式。 语言模型(Large Language Model,简称 LLM)作为 AI 领域最具突破性的技术之一,已经从研究实验室走向了日常应用。 无论是 ChatGPT、Claude 还是 Gemini,这些工具都基于同一核心技术——语言模型。本文将深入探讨 LLM 的工作原理,并帮助您了解如何选择最适合您需求的模型。一、什么是语言模型语言模型是一种基于深度学习的人工智能系统,经过海量文本数据的训练,能够理解和生成人类语言。 市场上有多款优秀的语言模型,每款都有其独特优势。

    71110编辑于 2026-01-30
  • 来自专栏时空探索之旅

    AAAI 2024 | 模型LLM)论文总结

    语言模型作为近期最火热的研究点,热度至今居高不下。特别是近期,arxiv上每个月都发表很多关于语言模型的文章。对此,我只想吐槽一句,根本读不完。 倒不如来看看在AAAI-2024会议上关于语言模型的研究工作。经过"老字号"AAAI会议审核过的,质量是杠杠的。 目前,语言模型(LLMs)凭借其从大数据中学习的能力,为文本生成提供了一种前景广阔的解决方案,尤其是在RRG等跨模态场景中。 作者:Timothy Chu, Zhao Song, Chiwun Yang 摘要:大型语言模型LLM)和生成式人工智能在计算机研究和应用中发挥了变革性作用。 (LLM)耗时耗力,因此医学领域出现了各种医学语言模型LLM),这凸显了对统一评估标准的需求。

    1.8K10编辑于 2024-11-19
  • 来自专栏Java技术

    AI技术和模型技术LLM

    -CoderOilStation(程序员编程助手科技股份有限责任公司)AI技术和模型技术LLM人工智能技术AI是美国高等院校哈佛大学的一种原型框架技术。AI技术西方和全球的部署研发和运用。 AI人工智能引领全球技术的更新和迭代监控不同的区域。相信知识不要服从于命运。美国麻省理工学院MIT会同步不同的领域模型驱动技术DDD(DomainDrivenDesign)。 领域模型驱动技术西方发达社会更注重不同想法和设计的美学应用。协会institute是定义技术标准的国际性知识传播组织。亚洲的工程师杰作Agent智能体应用于基本的搜索应用和广告商品推荐。 私有用户和公众的开放平台用户一小一意味着平台的设计开始运行正常。模型LLM(LargeLanguageModel)模型开放基础框架的模型搭建方式。很多的应用逻辑都是有编程范式和编程方法学。

    22210编辑于 2026-03-08
  • 来自专栏架构师成长之路

    模型llm:Ollama部署llama3学习入门llm

    Llama3模型则达到400B,仍在训练中,目标是实现多模态、多语言的功能,预计效果将与GPT 4/GPT 4V相当。 二、Ollama安装 1、Ollama简介 Ollama 是一个开源的大型语言模型LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。 \n\n**Korean:** 《Meta Llama 3》:현재 가장 강력한 공개 사용 가능한 LLM\n\n**Japanese:**\n\n《Meta Llama 3》:現在最強の公開使用可能 なLLM\n\n\n\nNote: (Meta Llama 3) is a literal translation, as there is no direct equivalent for \"Meta } ] }' 五、配置Open-WebUI 可以直接使用dify开源的llm ops集成:https://guisu.blog.csdn.net/article/details/138978737

    7K00编辑于 2024-05-24
  • 来自专栏CSDNToQQCode

    语言模型LLM中的幻觉

    LLM是什么? 大型语言模型LLM)是一种基于自然语言处理和机器学习技术的大型语言处理模型。它能够理解和生成自然语言文本,并能够处理各种语言和文本类型,如对话、问答、文本生成等。 LLM在许多领域都有广泛的应用,如搜索引擎、机器翻译、自然语言理解、智能客服、语音识别、内容审核等。它可以帮助人们更高效地处理大量的自然语言数据,提高语言处理的准确性和效率。 同时,LLM也面临着一些挑战,如模型的可解释性、安全性和隐私问题等。 幻觉 由ChatGPT带来的模型时代,国内外各大厂家都在陆续推出自己的模型,然而目前模型都存在一个普遍的现象就是:幻觉。 事实幻觉 事实不一致,当问AI:如何解决模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。

    49010编辑于 2024-01-02
  • 来自专栏机器学习AI算法工程

    ChatIE(LLM模型用于信息抽取)

    利用ChatGPT实现零样本信息抽取(Information Extraction,IE),看到零样本就能大概明白这篇文章将以ChatGPT作为一个基座然后补全前后端,来实现抽取任务。主要针对抽取中的三个重要任务:

    1.6K10编辑于 2023-10-28
领券